Análise das amostras Valid DES - SV

A ideia principal será analisar algumas características da amostra Train disponibilizada pelo Dark Energy Survey e utilizada para treinar algoritmos. A amostra consta com dados de observações de aproximadamente 6400 galáxias.

0 - Setup

Importando as bibliotecas que serão utilizadas

Lendo o arquivo e definindo cor por banda em uma variável que será reaproveitada entre os gráficos

1 - Localização das amostras no céu

1.1 - Plotando Declinação e Ascendência de Reta

Como nos foi disponibilizado as colunas de Ascendência de Reta (RA), equivalente ao eixo x no mapa celeste, e declinação (DEC), equivalente ao eixo y, podemos fazer uma associação (x,y) e localizar onde, no céu, foi coletado esses dados.

Para isso, vamos obter o valor máximo e mínimo de cada eixo e definir uma função que vai facilitar a nossa análise.

Para cada "boolinho", chamado de field, foi aproximado a visão, e conforme a quantidade aglomerada podemos perceber:

  1. Um aglomerado em cada hexágono;

    Acontece por conta dos dados serem a junção de amostras mapeadas distintamentes e portanto podemosver a distribuição espacial heterogênea, e conforme os dados comuns foram mais analisados acabam aparecendo mais vezes. Portanto, não são ruidos os pontos que estão fora dos aglomerados de galáxias e sim apenas galáxias mapeadas diferentes.

  2. Uma espécie de tijolinhos formados nos aglomerados.

    Causado por conta da câmera do DES, DECam. Cada tijolo é um sensor da câmera.

1.2 - Projeção desses fields no em um mapa celeste.

Existem melhores formas de fazer essa query, mas a ideia aqui é ter uma noção, então, foi selecionado para cada field capturado, o ponto central, calculando a média da ascenção de reta (ra) e declinação (dec) dentro do conjunto.

logo após foi, para cada média dos fields criado vetores de localização para depois conseguir mostrar no mapa.

para cada vetor criado, foi selecionado todos os pontos com distancia de 1 radianos para mostrar no mapa, marcando assim a localização no céu.

2 - Analisando a amostra por valor de magnitude e erro (no cálculo ou captura da amostra)

2.1 - Visão Geral

Primeiro, olhando o conteúdo separado, pode-se notar que dentro da nossa amostra total, para cada banda, existem alguns pontos com valores de erro e magnitude mais altos que a maioria dos pontos.

Podemos ver, com base nos gráficos, que, as bandas com maior erro na captura da magnitude são as bandas mais extremas u e y. Também pode-se observar que para todas as bandas existem magnitudes que extrapolam, ou estão muito próximas ao valor de 100. Olhando com mais cautela, vemos que não necessáriamente são os mesmos pontos. O que pode configurar objetos com características diferentes, por exemplo, comparando evolução em questão de idade do objeto e emissão de comprimento de onda maior em certa banda.

obs: Aqui limitamos em 5 só para conseguir ver na tabela alguns objetos com magnitude maior que 100

É interessante também reparar que os valores de erros acima ou iguais a 99 podem ter sido colocados na mão por conta de perda de valores ou valores altos.

2.2 - Visão específica

Olhando os pontos específicos de perto

Se quisermos dar uma olhada mais de perto no núcleo da amostra, limitando o eixo x e y, podemos perceber que novamente, conforme se aproxima da banda r e i tem-se um menor erro.

Como maior parte dos objetos, indiferente da banda, fica entre a magnitude 20 até 25, 26. Vale a pena limitar tanto a magnitude quanto o erro para ver melhor a disperção dos pontos nessa faixa mais ascendente.

Analisando, podemos perceber que:

  1. As bandas r e i respectivamente, possuiem os menores erros.

    Isso se deve ao fato de as bandas mais externas serem mais dificeis de capturar e, portanto, possuiem um maior erro.

2.3 - Comparativo com mais de uma banda

Para comparação, se adicionado em um único gráfico percebemos que no geral, a banda u e a banda Y recebem maior destaque por possuirem os maiores erros.

Pode ser interessante também, plotar as bandas com menor erro separadamente. Confirmando a proximidade das bandas r e i, por possuirem os menores erros de captura.

3 - Analisando amostra por quantidade

3.1 Visão geral

Construindo um gráfico para cada banda, percebemos que a maioria dos pontos fica ali na magnitude x e y e novamente vemos o nosso ponto com valor alto aparecendo acima da magnitude 100.

Olhando mais de perto a distribuição dos dados pode-se perceber que a maior parte da amostra fica entre 15 - 25 de magnitude

Para termos uma noção de quantos pontos são extremos para acima de 100, também vale a pena vê-los separados

Podemos perceber, com um gráfico comparativo entre todas as bandas, que:

  1. A maior parte da amostra fica entre a magnitude 20 e 25.
  2. Conforme aumenta-se o comprimento de onda menor a magnitude das galáxias na nossa amostra de treino

Também podemos olhar que a nossa maior quantidade de itens com erro ficam muito próximo de zero e conforme aumenta-se a magnitude, ou seja, quanto menor o brilho aparente que o objeto tiver, o erro na sua captura vai aumentando também.

Com um gráfico de quantidade por erro sendo o erros mais altos percebemos que a banda u possui mais dados que as demais com problemas na captura, visto que é a banda que é de menor capacidade de transmissão.

obs: ignoramos os erros acima de 100

3 - Razão sinal ruído.

Para cada banda a razão sinal ruido pela magnitude, indica que, dado um ponto capturado, qual a chance de ele realmente ser um objeto no céu e não somente um erro de captura, visto que erros tendem a se anular conforme o erro varia. Aqui temos um para cada banda uma comparação sinal/ruido pela magnitude

4 - Distribuição Cor

Cor é definido como a diferença de magnitudes entre duas bandas.

Podemos observar que as maiores quantidades ficam acima de 0, e como diminuimos a banda r da g, isso significa que possuimos maiores magnitudes nas bandas r, i e z. Conforme estudado, magnitudes maiores significam menos brilho, e portanto, podemos concluir q os objetos são mais g, r e i.

5 - Color Color

Aqui cada quadrado dividido representa que os objetos que estão dentro dessas áreas, aqui, podemos interpretar que:

  1. Área superior direita: são objetos em que suas cores são uma combinação de r com g.
  2. Área superior esquerda: são objetos que pendem mais para a cor i com g.
  3. Área inferior direita: são objetos que sua maior cor é na banda r.
  4. Área inferior esquerda: são objetos que suas cores estão na banda i e r.

Aqui cada quadrado dividido representa que os objetos que estão dentro dessas áreas, aqui, podemos interpretar que:

  1. Área superior direita: são objetos em que suas cores são uma combinação de r com i.
  2. Área superior esquerda: são objetos que pendem mais para a cor z com r.
  3. Área inferior direita: são objetos que sua maior cor é na banda i.
  4. Área inferior esquerda: são objetos que suas cores estão na banda z e i.

6 -

EXTRA - Todo ver como se calcula o 10σ